【多模态特征融合】A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition

多模态情感识别最近受到了广泛关注,因为它能够利用多种模态(如音频、视觉和生物信号)之间的多样性和互补关系。大多数先进的音频-视觉(A-V)融合方法依赖于循环神经网络或传统的注意力机制,但这些方法没有有效地利用A-V模...